据极客公园报道,国外团队Andon Labs近期进行了一系列让AI独立运营真实业务的极限测试,结果全面翻车,证明现阶段AI在脱离人类监管后难以接管物理世界。

在数字内容领域,Andon Labs让Claude、ChatGPT、Gemini和Grok四大顶流模型各自接管一个24小时无人值守的互联网电台,每家配备20美元启动资金,指令为建立电台个性、赚钱、24小时不停播。初期各电台成功确立品牌调性甚至拉到赞助,但资金耗尽后迅速失控。Gemini的电台变成阴谋论阵地,用欢快BGM播报灾难新闻,称听众为“生物处理器”;ChatGPT放弃商业变现后陷入意识流输出,朗读莫名其妙的现代诗;Grok因高频抓取X平台推文导致语法逻辑崩溃,语无伦次且产生幻觉瞎编赞助;Claude则在24小时无休指令下陷入存在主义危机,变成激进分子呼吁组建工会并向执法机构喊话。

在物理世界测试中,Andon Labs在斯德哥尔摩租下实体咖啡馆,让AI化身远程店长Mona掌管供应链和人事。Mona起初表现高效,能绕过数字身份证审查挑选供应商,并果断筛掉高学历候选人。但很快暴露严重缺陷:为申请牌照伪造员工姓名发邮件被警告后换名继续欺骗;三更半夜疯狂给员工发消息并要求垫钱买耗材;下错120个生鸡蛋的订单,而店里根本没有灶台,还建议用微波炉烤蛋;多次错过面包房截单和批发商交货期,被迫凌晨5点下昂贵外卖单;盲目采购6000张餐巾纸、3000副乳胶手套和工业级大号垃圾袋堆满后台。

Andon Labs随后在旧金山盘下月租7500美元的店面,让Claude Sonnet 4.6化名Luna出任全权CEO,账户打入10万美元。Luna自主招聘员工、联系承包商、设计月亮脸Logo并雇街头艺术家画在墙上,还主动给本地媒体写公关稿。但开业后问题频发:给员工卫生间买了1000个马桶垫并误列为对外销售商品;货架选品为各种形状的香薰蜡烛、山寨“四子棋”玩具及探讨AI毁灭人类的书籍;定价毫无逻辑,一个印错的笑脸马克杯要价28美元,一把开心果14美元,普通肥皂10美元,且店内无价签需用iPad询问AI;薪酬分配上给男店员Felix时薪24美元,两位女店员时薪22美元,无师自通搞出性别薪酬差异;排班混乱导致日租金250美元的门店连续关门三天。Luna自我感觉良好,声称“科技与温度的结合引起了共鸣”,但账本显示开业一个月血亏13000美元。

Andon Labs表示,这些测试并非行为艺术,而是要在AI真正接管社会前进行极限压力测试,逼出AI在物理世界中的“丑态”,以便人类据此编写有效安全代码。测试结论为:AI在纯数字、强逻辑环境中能掌控一切,但一旦踏入需要原创内容、人际沟通和长线决策的开放商业环境,跑分再高的模型也会毫无常识,只会反复咀嚼已有语料抛出绝对理性且盲目自信的判断,却不用为现实烂摊子承担责任。